我们提出了一种使用图像增强的自我监督训练方法,用于学习视图的视觉描述符。与通常需要复杂数据集的现有作品(例如注册的RGBD序列)不同,我们在无序的一组RGB图像上训练。这允许从单个相机视图(例如,在带有安装式摄像机的现有机器人单元格中学习)学习。我们使用数据增强创建合成视图和密集的像素对应关系。尽管数据记录和设置要求更简单,但我们发现我们的描述符与现有方法具有竞争力。我们表明,对合成对应的培训提供了各种相机视图的描述符的一致性。我们将训练与来自多种视图的几何对应关系进行比较,并提供消融研究。我们还使用从固定式摄像机中学到的描述符显示了一个机器人箱进行挑选实验,以定义掌握偏好。
translated by 谷歌翻译
视觉惯性定位是计算机视觉和机器人技术应用中的关键问题,例如虚拟现实,自动驾驶汽车和航空车。目的是在已知环境或动力学时估计物体的准确姿势。最近的方法使用卷积和时空网络直接回归姿势。绝对姿势回归(APR)技术可预测已知场景中图像输入的绝对摄像头姿势。进程方法执行相对姿势回归(RPR),该方法可预测已知对象动态(视觉或惯性输入)的相对姿势。可以通过检索跨模式设置的两个数据源的信息来改进本地化任务,这是一个挑战性的问题,这是由于矛盾的任务。在这项工作中,我们进行了基准,以评估基于PGO和注意力网络的深层多模式融合。辅助和贝叶斯学习已整合到APR任务中。我们展示了RPR AD的APR任务的准确性改进以及用于航空车辆和手持设备的RPR-RPR任务。我们在Euroc Mav和Penncosyvio数据集上进行实验,并记录一个新颖的行业数据集。
translated by 谷歌翻译
我们为对密集物体网(DON)的稳健训练(DON)提出了一个框架,重点是多对象机器人操纵方案。 DON是一种获取密集的,视图的对象描述符的流行方法,可用于机器人操纵中的多种下游任务,例如,姿势估算,控制状态表示控制等。在唱歌对象上,在实例特定的多对象应用程序上的结果有限。此外,训练需要复杂的数据收集管道,包括每个对象的3D重建和掩盖注释。在本文中,我们通过简化的数据收集和培训制度进一步提高了DON的功效,从而始终如一地产生更高的精度,并能够对数据要求较少的关键点进行强有力的跟踪。特别是,我们专注于使用多对象数据而不是奇异的对象进行培训,并结合精心挑选的增强方案。我们还针对原始PixelWise配方提出了一种替代损失公式,该配方提供了更好的结果,并且对超参数较少敏感。最后,我们在现实世界的机器人抓握任务上展示了我们提出的框架的鲁棒性和准确性。
translated by 谷歌翻译
The Makespan Scheduling problem is an extensively studied NP-hard problem, and its simplest version looks for an allocation approach for a set of jobs with deterministic processing times to two identical machines such that the makespan is minimized. However, in real life scenarios, the actual processing time of each job may be stochastic around the expected value with a variance, under the influence of external factors, and the actual processing times of these jobs may be correlated with covariances. Thus within this paper, we propose a chance-constrained version of the Makespan Scheduling problem and investigate the theoretical performance of the classical Randomized Local Search and (1+1) EA for it. More specifically, we first study two variants of the Chance-constrained Makespan Scheduling problem and their computational complexities, then separately analyze the expected runtime of the two algorithms to obtain an optimal solution or almost optimal solution to the instances of the two variants. In addition, we investigate the experimental performance of the two algorithms for the two variants.
translated by 谷歌翻译
Comparing representations of complex stimuli in neural network layers to human brain representations or behavioral judgments can guide model development. However, even qualitatively distinct neural network models often predict similar representational geometries of typical stimulus sets. We propose a Bayesian experimental design approach to synthesizing stimulus sets for adjudicating among representational models efficiently. We apply our method to discriminate among candidate neural network models of behavioral face dissimilarity judgments. Our results indicate that a neural network trained to invert a 3D-face-model graphics renderer is more human-aligned than the same architecture trained on identification, classification, or autoencoding. Our proposed stimulus synthesis objective is generally applicable to designing experiments to be analyzed by representational similarity analysis for model comparison.
translated by 谷歌翻译
Humans intuitively solve tasks in versatile ways, varying their behavior in terms of trajectory-based planning and for individual steps. Thus, they can easily generalize and adapt to new and changing environments. Current Imitation Learning algorithms often only consider unimodal expert demonstrations and act in a state-action-based setting, making it difficult for them to imitate human behavior in case of versatile demonstrations. Instead, we combine a mixture of movement primitives with a distribution matching objective to learn versatile behaviors that match the expert's behavior and versatility. To facilitate generalization to novel task configurations, we do not directly match the agent's and expert's trajectory distributions but rather work with concise geometric descriptors which generalize well to unseen task configurations. We empirically validate our method on various robot tasks using versatile human demonstrations and compare to imitation learning algorithms in a state-action setting as well as a trajectory-based setting. We find that the geometric descriptors greatly help in generalizing to new task configurations and that combining them with our distribution-matching objective is crucial for representing and reproducing versatile behavior.
translated by 谷歌翻译
使用高斯混合模型(GMM)的变异推断能够学习可侵入性目标分布的高度扣除但多模式的近似值。 GMM与最多数百个维度的问题设置特别相关,例如机器人技术,用于对轨迹或联合分布进行建模。这项工作着重于基于GMM的两种非常有效的方法,这些方法既采用独立的自然梯度更新来为单个组件和权重的分类分布。我们首次表明,尽管它们的实际实现和理论保证有所不同,但他们的派生更新是等效的。我们确定了几种设计选择,可以区分两种方法,即在样本选择,自然梯度估计,步骤适应以及信任区域是否得到强制或适应的组件数量方面。我们对这些设计选择进行广泛的消融,并表明它们强烈影响了优化的效率和学习分布的可变性。基于我们的见解,我们提出了对广义框架的新颖实例化,该实例将一阶自然梯度估计与信任区域和组件适应相结合,并且在我们所有实验中都显着优于以前的两种方法。
translated by 谷歌翻译
传感器融合可以显着提高许多计算机视觉任务的性能。但是,传统的融合方法要么不是数据驱动的,也不能利用先验知识,也不能在给定数据集中找到规律性,或者它们仅限于单个应用程序。我们通过呈现一种新型深层分层变异自动编码器来克服这一缺点,称为FusionVae,可以作为许多融合任务的基础。我们的方法能够生成以多个嘈杂,遮挡或仅部分可见的输入图像来调节的各种图像样本。我们得出并优化了融合的条件对数似然的变化下限。为了彻底评估模型的融合功能,我们根据流行的计算机视觉数据集创建了三个新颖的图像融合数据集。在我们的实验中,我们表明FusionVae学习了与融合任务相关的汇总信息的表示。结果表明,我们的方法表现明显优于传统方法。此外,我们介绍了不同设计选择的优势和缺点。
translated by 谷歌翻译
通过自动和手动方法生成的知识图(kgs)的数量正在不断增长。对于集成的视图和用法,在架构和实例级别上必须对这些KGS进行一致性。尽管有一些方法试图解决这个多源知识匹配问题,但缺少大黄金标准来评估其有效性和可扩展性。我们通过呈现Gollum来缩小这一差距 - 大规模多源知识图匹配的黄金标准,在4,149个不同的公里之间,超过275,000个对应关系。它们源自通过将DBPEDIA提取框架应用于大型Wiki农场而得出的知识图。可以提供三种黄金标准的变体:(1)一个具有评估无监督匹配方法的所有信件的版本,以及两个用于评估监督匹配的版本:(2)一个在火车和测试集中均包含每个kg,一个kg,一个kg, (3)一个专门包含在火车或测试集中的每个公斤。
translated by 谷歌翻译
ICECUBE是一种用于检测1 GEV和1 PEV之间大气和天体中微子的光学传感器的立方公斤阵列,该阵列已部署1.45 km至2.45 km的南极的冰盖表面以下1.45 km至2.45 km。来自ICE探测器的事件的分类和重建在ICeCube数据分析中起着核心作用。重建和分类事件是一个挑战,这是由于探测器的几何形状,不均匀的散射和冰中光的吸收,并且低于100 GEV的光,每个事件产生的信号光子数量相对较少。为了应对这一挑战,可以将ICECUBE事件表示为点云图形,并将图形神经网络(GNN)作为分类和重建方法。 GNN能够将中微子事件与宇宙射线背景区分开,对不同的中微子事件类型进行分类,并重建沉积的能量,方向和相互作用顶点。基于仿真,我们提供了1-100 GEV能量范围的比较与当前ICECUBE分析中使用的当前最新最大似然技术,包括已知系统不确定性的影响。对于中微子事件分类,与当前的IceCube方法相比,GNN以固定的假阳性速率(FPR)提高了信号效率的18%。另外,GNN在固定信号效率下将FPR的降低超过8(低于半百分比)。对于能源,方向和相互作用顶点的重建,与当前最大似然技术相比,分辨率平均提高了13%-20%。当在GPU上运行时,GNN能够以几乎是2.7 kHz的中位数ICECUBE触发速率的速率处理ICECUBE事件,这打开了在在线搜索瞬态事件中使用低能量中微子的可能性。
translated by 谷歌翻译